데이터분석 준전문가 랜덤

데이터 이해


1. 사생활 침해 방지 기술에 해당하는 것으로 개인 식별 정보를 삭제하거나 알아 볼 수 없는 형태로 변환하는 포괄적 기술로 올바른 것은?
  •  익명화
  •  데이터 마스킹
  •  가명
  •  데이터 값 삭제

2. 다음 데이터베이스의 특징에 대한 설명 중 옳지 않은 것은 무엇인가?
  •  통합된 데이터로 동일한 내용의 데이터가 중복되어 저장된다.
  •  저장된 데이터로 컴퓨터가 접근할 수 있는 저장 매체에 저장된다.
  •  공용 데이터로 여러 사용자에게 서로 다른 목적으로 데이터가 공동 이용된다.
  •  변화되는 데이터로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야한다.

3. 암묵지와 형식지 상호작용의 과정 중 개인의 내재된 경험을 객관적인 데이터로 변환하여 문서나 매체에 저장.가공.분석하는 과정을 무엇이라고 하는가?
  •  표출화
  •  연결화
  •  내재화
  •  공통화

4. 데이터 사이언티스트의 역량에 대한 설명이 아닌것은?
  •  통찰력 있는 분석, Data Technical Skill
  •  설득력 있는 전달
  •  다분야간 협력
  •  데이터 분석 알고리즘으로 인해 피해를 입은 사람을 구제

5. 다음 내용은 데이터베이스를 기반으로 기업 내에 구축하는 주요 정보시스템 중 하나를 설명한 것이다. 아래의 내용이 설명하고 있는 정보 시스템은?
"고객 별 구매 이력 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바탕으로 각종 마케팅 전략을 통해 보다 높은 이익을 창출할 수 있는 솔루션"
  •  CRM
  •  SCM
  •  EDW
  •  OLTP

6. 다음 중 빅데이터 출현 배경으로 옳지 않은 것은?
  •  비정형 데이터의 확산
  •  학계의 거대 데이터 활용 과학 확산
  •  중앙 집중 처리 방식의 특성
  •  데이터 처리 기술 발전

7. 빅데이터가 만들어 낸 본질적인 변화로 옳지 않은 것은?
가. 사전처리 → 사후처리
나. 대면조사 → 표본조사
다. 질보다 → 양적으로
라. 상관관계 → 인과관계
  •  가, 나
  •  나, 라
  •  다, 라
  •  가, 라

8. 다음 설명에 해당하는 빅데이터 활용 테크닉은 무엇인가?
"최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?와 같은 최적화 메커니즘을 찾아가는 방법이다"

9. 데이터 크기를 작은 것 부터 큰 것 순서로 올바르게 나열한 것은?
  •  PB < EB < ZB < YB
  •  PB < YB < EB < ZB
  •  YB < ZB < EB < PB
  •  PB < ZB < EB < YB

10. 다음 데이터에 대한 설명 중 틀린 것은?
  •  비정형 데이터는 데이터 내부에 메타 데이터를 갖고 있고 파일 형태로 저장된다.
  •  정형 데이터는 행과 열에 의해 데이터의 속성이 구별되는 스프레드 시트 형태이다.
  •  반정형 데이터는 Parsing을 통해 구조를 파악할 수 있다.
  •  HTML, XML, JSON은 반 정형 데이터이다.

데이터분석 기획


11. 분석 과제 정의서에 대한 설명으로 가장 적절한 것은 무엇인가?
  •  프로젝트 수행 계획 수립 단계에서 전체 업무를 분류하여 구성 요소로 만든 후 각 요소를 평가하고 일정별로 계획하며 그것을 완수할 수 있는 사람에게 할당해주는 역할을 한다.
  •  분석 모델에 적용될 알고리즘과 분석모델의 기반이 되는 Feature가 포함되어야 한다.
  •  이해관계자가 프로젝트의 방향을 설정하고, 성공 여부를 판별할 수 없는 자료이다.
  •  필요한 소스 데이터, 분석 방법, 데이터 입수 난이도, 분석 과정 상세 등의 항목이 포함되어야 한다.

12. 다음 분석과제의 특징 중 Accuracy와 Pricision에 대한 설명으로 틀린 것은?
  •  분석의 활용적인 측면에서는 Accuracy가 중요하며, 안정적인 측면에서는 Precision이 중요하다.
  •  Accuracy와 Precision의 관계는 트레이드 오프(Trade-off)가 되는 경우가 많다
  •  Accuracy는 True로 예측된 것 중 실제 True인 것의 비율, Precision은 실제 True인 것 중 True로 예측된 것의 비율이다.
  •  Precision은 모델을 반복했을 때의 편차를 의미한다.

13. 다음 중 데이터 표준화에 대한 설명으로 올바른 것은?
  •  메타 데이터와 데이터 사전의 관리 원칙을 수립한다.
  •  데이터 표준 용어 설정, 명명 규칙수립, 메타 데이터 구축, 데이터 사전 구축 등의 업무로 구성된다.
  •  메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성한다.
  •  데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 실시한다.

14. 다음 중 ROI 관점에서의 분석 과제에 대한 우선순위 평가 기준 관련 설명 중 적절하지 않은 것은?
  •  분석 난이도는 분석 준비도와 성숙도에 따라 해당 기업의 분석 수준을 파악하고 이를 바탕으로 결정된다.
  •  시급성이 높고 난이도가 어려운 분석 과제는 우선 순위 기준이 높다.
  •  난이도에 우선 순위 기준을 놓으면 시급성 높고 난이도 쉬운 과제가 가장 먼저 수행되어야 한다.
  •  시급성이 높고 난이도가 어려운 분석 과제는 경영진에 의해 조정 가능하다.

15. 빅데이터 분석 방법론에서 분석 기획 단계의 Task로 적절하지 않은 것은?
  •  비즈니스 이해 및 범위 설정
  •  프로젝트 정의 및 계획 수립
  •  프로젝트 위험 계획 수립
  •  필요 데이터 정의

16. CRISP-DM에 대한 내용으로 올바른 것은?
가. 데이터 이해에서 데이터 준비 단계로 갈 수 있다.
나. 모델링 단계에서 학습용/테스트용 데이터를 사용해 과소 적합을 확인한다.
다. 비즈니스 이해, 데이터 이해 간 피드백이 가능하다.
라. 평가에서 적합하면 바로 프로젝트 투입이 가능하다.
  •  가, 라
  •  가, 나, 라
  •  가, 나, 다
  •  나, 라

17. 다음 중 기업의 분석 도입의 수준을 파악하기 위한 분석 준비도와 관계가 적은 항목은 무엇인가?
  •  분석 인력 및 조직
  •  분석 기법
  •  목표와 정책
  •  분석 데이터

18. 다음 분석 성숙도 관련 내용으로 옳지 않은 것은?
  •  유사 업종, 경쟁 업체와의 비교 분석을 포함한다.
  •  성숙도 수준에 따라 도입, 활용, 확산, 최적화 단계로 구분해 살펴 볼 수 있다.
  •  시스템 개발 업무능력과 조직의 성숙도 파악을 위해 CMMI 모델을 활용하여 분석 성숙도를 평가한다.
  •  데이터 분석 수준 진단은 분석 준비도와 분석 성숙도를 함께 평가함으로써 수행될 수 있다.

19. 빅데이터 분석 방법론의 분석 기획 단계의 Task '비즈니스 이해 및 범위설정' 단계에서 프로젝트에 참여하는 관계자들의 이해를 일치시키기 위해 작성하는것은?
  •  SOW
  •  WBS
  •  EDA
  •  ETL

20. 분석 과제 발굴 방법 중 상향식 접근법(Bottom Up Approach)에 대한 설명으로 옳지 않은 것은?
  •  분석 대상이 명확할 때 솔루션을 찾는 방식이다.
  •  일반적으로 비지도 학습(Unsupervised Learning) 방식을 수행한다.
  •  다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 문제를 도출하는 일련의 과정이다.
  •  하향식 접근 방식과는 달리 복잡하고 다양한 환경에서 발생하는 문제 해결에도 적합하다.

데이터분석


21. 다음 중 분류 모형 평가에 활용하지 않는 것은 무엇인가?
  •  덴드로그램
  •  오분류표
  •  ROC 그래프
  •  Kappa 지수

22. 회귀 모형을 평가하는 방법으로 옳지 않은 것은?
  •  모형이 통계적으로 유의미한가?
  •  모형이 데이터를 잘 적합하는가?
  •  회귀계수가 유의한가?
  •  선형성, 정상성, 독립성을 만족하는가?

23. 다음 이산형 확률 분포의 확률 변수 x에 대한 설명 중 적절한 것은 무엇인가?
  •  확률변수 x의 확률의 합은 1보다 작거나 클 수 있다.
  •  확률변수 x가 0이거나 4일 확률은 0이 아니다.
  •  확률변수 x에 대한 기댓값은 13/6 이다.
  •  확률변수 x가 1이거나 2일 확률은 5/6이다.

24. 다음 중 통계 용어에 대한 설명으로 옳지 않은 것은?
  •  다른 변수의 영향을 받는 변수를 설명 변수라고 한다.
  •  모집단의 평균을 추정하기 위해 표본 평균을 계산한다.
  •  표준 편차는 데이터가 평균으로부터 떨어진 정도를 나타내는 척도이다.
  •  사분위수범위는 데이터의 25%, 50%, 75%에서 25%의 값을 빼준 값이다.

25. 모분산 추정에 대한 설명으로 옳지 않은 것은 무엇인가
  •  모집단의 변동성 또는 퍼짐의 정도에 관심이 있는 경우, 모분산이 추론의 대상이 된다.
  •  N개 집단에 대한 분산 검정은 자유도가 N-1인 카이제곱검정을 따른다.
  •  모집단이 정규 분포를 따르지 않더라도 중심 극한 정리를 통해 정규모집단으로 부터의 모 분산에 대한 검정을 유사하게 시행할 수 있다.
  •  이표본(Two sample)에 의한 분산비 검정은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다.

26. 구축된 모델을 평가하여 과대적합 또는 과소적합을 미세조정 하는데 활용하는 데이터는 무엇인가?
  •  학습 데이터(Train data)
  •  검증 데이터(Validation data)
  •  평가 데이터(Test data)
  •  증강 데이터

27. 시계열 데이터의 정상성(Stationary)에 대한 설명으로 옳지 않은 것은?
  •  평균이 일정하다.
  •  시계열 자료는 독립성을 충족해야 한다.
  •  분산이 시점에 의존하지 않는다.
  •  공분산은 단지 시차에만 의존하고, 시점 자체에는 의존하지 않는다.

28. 다음 중 다중공선성(Multicollinearity)에 대한 설명으로 옳지 않은 것은?
  •  다중공선성에 대한 측정은 VIF를 사용한다.
  •  다중공선성이 발생하는 독립 변수들은 표본의 크기에 관계없이 발생하게 된다.
  •  독립변수간 높은 상관관계를 가질 때 다중공선성의 발생이 높다.
  •  중대한 다중공선성은 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만든다.

29. 다음 중 R에서 서로 다른 데이터 타입을 담을 수 있는 구조는 무엇인가?
  •  matrix
  •  list
  •  array
  •  vector

30. 다음 오분류표를 사용하여 F1-score를 구하시오.

31. 다음 중 두 좌표 A,B간의 유클리드 거리(Euclidean Distance)는?
    A : B
키  : 175  : 180
몸무게:   70   :  65
  •  10
  •  50
  •  √10
  •  √50

32. 어떤 슈퍼마켓 고객 6명의 장바구니 별 구입 품목이 다음과 같다고 한다면, 연관 규칙(콜라→맥주)의 지지도는?
  •  0.6
  •  0.4
  •  0.5
  •  0.3

33. 인공신경망 함수에 대한 설명으로 옳지 않은 것은?
  •  인공신경망 함수는 여러 개의 뉴런이 연결된 구조를 가지고 있으며, 각 뉴런은 입력값에 따라 비선형적인 변환을 수행한다.
  •  쌍곡탄젠트 함수는 0~1 사이의 값을 출력하며 시그모이드 함수와 관련이 있다.
  •  인공신경망 함수는 활성화 함수를 사용하여 입력값을 출력값으로 변환한다.
  •  대표적인 인공신경망 함수로는 시그모이드 함수, 쌍곡탄젠트 함수, 렐루 함수 등이 있다.

34. 다음이 설명하는 것은 무엇인가?
클러스터 안의 데이터들이 다른 클러스터와 비교해 얼마나 비슷한가를 나타내는 군집분석 타당성 평가지표로 1에 가까울수록 군집화가 잘 되었다고 판단한다.

35. 다음 시계열 데이터에 대한 설명 중 가장 옳지 않은 것은?
  •  시계열 데이터의 모델링은 다른 분석 모형과 같이 탐색 목적과 예측 목적으로 나눌 수 있다.
  •  짧은 기간 동안의 주기적인 패턴을 계절변동이라 한다.
  •  잡음은 무작위적인 변동이지만 일반적으로 원인은 알려져 있다.
  •  시계열 분석의 주 목적은 외부 인자와 관련해 계절적인 패턴 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것이다.

36. 다음 오분류표를 사용하여 재현율을 구한 결과는 무엇인가?
  •  0.15
  •  0.3
  •  0.4
  •  0.55

37. 다음 중 주성분 분석에 대한 설명으로 부적절 한 것은?
  •  차원축소 방법 중 하나이다.
  •  비지도 학습(Unsupervised learning)에 해당한다.
  •  이론적으로 주성분 간 상관관계가 없다.
  •  원변수의 선형 결합 중 가장 분산이 작은 것을 제 1주성분(PC1)으로 설정한다.

38. 이산확률변수 X가 가능한 값으로 1,2,4 가 있다. P(X=1) = 0.3 이고 기댓값이 2.7 일 때 P(X=2)는 무엇인가?

39. 다음 중 표본추출 시 발생하는 오차에 대한 설명으로 옳지 않은 것은?
  •  표본오차는 모집단의 일부인 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론함으로써 생기는 오차를 의미한다.
  •  비표본오차는 표본 크기가 증가함에 따라 증가한다.
  •  표본 편의는 표본 추출방법에서 기인하는 오차를 의미하고, 정규화에 의해 최소화하거나 없앨 수 있다.
  •  표본 오차는 표본의 크기를 증가 시키고, 표본 선택 방법을 엄격히하여 줄일 수 있다.

40. 다음 코드는 chickwts dataset의 weight 변수의 t.test결과에 대한 해석이다. 이에 대한 내용으로 가장 적절하지 않은 것은?
  •  닭 무게 260은 신뢰구간 안에 존재한다.
  •  전체 관측치의 수는 70이다.
  •  닭 무게의 95% 신뢰구간은 242.8~279.7이다.
  •  닭 무게의 점 추정량은 261.3이다

41. 시그모이드 함수의 범위로 알맞은 것은?
  •  0~1
  •  -1~1
  •  -1~0
  •  0.5~1

42. 다음 시계열 분석에 대한 설명 중 옳지 않은 것은 무엇인가?
  •  데이터가 추세를 가지면 변환(자연로그)를 사용하여 정상 시계열로 만든다.
  •  정상 시계열인 경우 평균값 주변에서의 변동은 대체로 일정한 폭을 갖는다.
  •  시계열 데이터는 대부분 비정상 시계열이기 때문에 정상 시계열로 만든 후 분석을 수행한다.
  •  시계열 그래프를 보면서 이상치와 정상성 여부를 확인할 수 있다.

43. 다음 중 잔차의 정규성(Normality) 검정에 대한 설명으로 옳지 않은 것은?
  •  Shapiro-Wilk, Kolmogrov-Smirnov, Aderson Darling 등의 정규성 검정을 위한 방법을 사용한다.
  •  정규성 가정을 충족하지 못할 경우, 상관계수가 높은 변수를 제거한다.
  •  잔차의 정규성 검정은 잔차가 정규 분포를 보이는지에 대한 검정이다.
  •  Q-Q plot으로 대략적인 확인이 가능하다.

44. 의사결정 나무 분리 기준인 엔트로피 지수의 계산식은?
  •  엔트로피 지수(Entropy index)
     
  •  엔트로피 지수(Entropy index)
     
  •  엔트로피 지수(Entropy index)
     
  •  엔트로피 지수(Entropy index)
     

45. 앙상블 모형이란 주어진 자료로부터 여러 개의 예측 모형을 만든 후 이러한 예측 모형들을 결합하여 하나의 최종 예측 모형을 만드는 방법을 말한다. 다음 중 앙상블 모형에 대한 설명으로 적절하지 않은 것은?
  •  배깅은 주어진 자료에서 여러개의 붓스트랩(bootstrap) 자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후 결합하여 최종 모형을 만드는 방법이다.
  •  부스팅은 배깅의 과정과 유사하여 재표본 과정에서 각 자료에 동일한 확률을 부여하여 여러 모형을 만들어 결합하는 방법이다.
  •  랜덤 포레스트는 의사결정나무모형의 특징인 분산이 크다는 점을 고려하여 배깅보다 더 많은 무작위성을 추가한 방법으로 약한 학습기들을 생성하고 이를 선형 결합해 최종 학습기를 만드는 방법이다.
  •  앙상블 모형은 훈련을 한 뒤 예측을 하는데 사용하므로 교사학습법(Supervised Learning)이다.

46. 6개의 feed(사료)를 chicken에게 먹인 후 측정한 weight를 summary 한 결과에 대한 설명으로 틀린 것은?
  •  weight 중앙값은 261.3이다.
  •  총 데이터 개수는 71개 이다.
  •  casein사료를 먹은 chicken은 12마리이다.
  •  feed는 평균 계산을 할 수 없다.

47. 코드 실행 결과에 대한 설명으로 적절한 것은?
  •  회귀모형은 유의수준 5%하에서 통계적으로 유의미하다.
  •  모든 회귀계수들이 유의미하다.
  •  설명력은 7.165 이다.
  •  데이터의 개수는 41개 이다.

48. 표본 조사에 대한 설명이 부적절한 것은?
  •  표본 오차(Sampling error)는 모집단의 일부인 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론함으로써 생기는 오차를 의미한다.
  •  표본 편의(Sampling bias)는 표본 추출방법에서 기인하는 오차를 의미한다.
  •  표본 편의는 확률화(Randomization)에 의해 최소화하거나 없앨 수 있다.
  •  비표본 오차(non-sampling error)는 표본크기가 증가함에 따라 감소한다.

49. 잔차의 정규성 검토에 대한 설명 중 옳지 않은 것은?
  •  Q-Q plot으로 대략적인 확인이 가능하다.
  •  잔차의 히스토그램이나 산점도를 그려서 정규성 문제를 검토하기도 한다.
  •  정규성을 검정하는 방법으로 Shapiro-Wilk test, Anderson-darling test등을 이용할 수 있다.
  •  정규성을 만족하지 못할 때 상관계수가 가장 큰 값을 제거한다.

50. 시계열 분석에서 시계열 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 것을 의미하는 용어는?

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr